Léxico hispanoamericano

Guía de búsqueda de palabras y de secuencias de caracteres

Las búsquedas se pueden hacer por palabra o secuencia de caracteres y se pueden acotar por fecha (siglo y año), lugar, obra o una combinación de estos criterios. Las búsquedas solo producen resultados si se utilizan los signos diacríticos adecuados en la palabra o secuencia de caracteres correspondiente, seleccionándolos en el recuadro proporcionado en la misma página de búsqueda o introduciéndolos al teclear la palabra o palabras que se quieren encontrar. Para más información, véanse las instrucciones de la Guía para el uso de diacríticos. Las búsquedas de palabras no se pueden hacer al mismo tiempo que las de lemas. No se deben incluir signos de puntuación (puntos o comas, por ejemplo) en las búsquedas de palabras o secuencias de caracteres.

Para buscar una palabra individual, es decir, una palabra que aparece en cualquiera de las obras del corpus del Léxico hispanoamericano (LHA), se deben utilizar los recuadros de busca correspondientes, que aparecen con los rótulos “Palabra” y “Secuencia de caracteres”. Es importante recordar que las búsquedas de lemas solo proporcionan resultados de palabras que se identifican como contextualmente importantes y que se definen en el Léxico como lemas (véase la Guía para la búsqueda de lemas para más información). Las búsquedas de palabras y secuencias de caracteres producen un listado exhaustivo de todas las palabras y secuencias que aparecen en todos los contextos. Además, como las búsquedas de palabras y secuencias de caracteres (y otras, como las que se hacen por obra o lugar) suponen extraer citas pertinentes a todos los lemas y como algunas de estas citas (idénticas o muy similares) se utilizan para ilustrar más de un lema, es posible que tales búsquedas produzcan resultados parcialmente idénticos. Estas citas idénticas pueden identificarse con facilidad a partir de la información sobre la fuente documental incluida en la cita. Todo esto se explica en la Guía para la búsqueda de lemas y es una función presente ya en el proyecto original del LHA, publicado en CD-ROM.

La opción de búsqueda de palabras producirá palabras completas, de idéntica ortografía, en singular o plural, masculinas o femeninas, según se hayan introducido en el campo de búsqueda o elegido de la lista prestablecida de palabras. Esta lista proporciona todas las palabras que se encuentran en el corpus. A medida que el usuario empieza a escribir una palabra se le van sugiriendo hasta diez opciones en una lista desplegable vertical. Si el usuario acaba de introducir la palabra y esta no aparece en el menú desplegable vertical, tal entrada no se encuentra en el corpus. Si desea buscar la forma regularizada de una palabra, se podría considerar una búsqueda por lema (para más información, véase de nuevo la Guía para la búsqueda de lemas).

En la opción de búsqueda de palabras, el usuario puede también utilizar comodines para encontrar palabras con variantes ortográficas. Los comodines crean opciones de búsqueda para uno o varios caracteres variantes (para más información, véase la Guía para el uso de comodines).

Por ejemplo, para buscar todas las formas de la palabra caballo (cauallo, cavallo, caballo), en todas sus ocurrencias, independientemente de si es un lema o no, se puede usar el comodín para una letra “_” y buscar ca_allo. De este modo, se obtendrán todos los casos de caballo, cauallo, cavallo en singular. Para buscar la forma plural, se puede introducir ca_allo_.

Para ilustrar las diferencias en los resultados de una búsqueda por palabra y por lema, la búsqueda por palabra de ca_allo produce 1.490 casos en singular; ca_allos, 977, en plural. La búsqueda por lema de caballo (que incluye variación ortográfica, singular y plural) produce 164 casos de caballo como lema. Como se indica en la Guía para la búsqueda de lemas, la búsqueda por palabra proporciona un listado completo de todas las ocurrencias de la palabra en el corpus del LHA.

Para facilitar su identificación, solo en las búsquedas por palabras se resalta en negrita la palabra buscada en los resultados. Si la palabra se encuentra entre paréntesis y se trata, por tanto, de un añadido del editor, de acuerdo con lo expuesto en la Guía para las citas, tal palabra no se resalta, ya que no está documentada en las obras originales.

La opción de búsqueda de secuencias de caracteres localiza un conjunto de letras en una palabra o secuencia. Para encontrar variación ortográfica, de uno o varios caracteres, el usuario puede utilizar comodines en las búsquedas de secuencias de caracteres (para más información, véase, de nuevo, la Guía para el uso de comodines). Por ejemplo, para buscar formas verbales que contienen la secuencia tuv, el usuario puede utilizar la opción de búsqueda de secuencias de caracteres para encontrar esa secuencia en cualquier palabra, que produciría resultados para tuvo, tuviesen, estuviese, estuvo, detuvo, entre muchos otros. La búsqueda se podría delimitar, por ejemplo, para las formas del verbo tener colocando un espacio antes de tuv [“ tuv”]. De este modo, el programa buscaría formas que comiencen por tuv: tuvo, tuve, tuviese, etc. O se podría hacer la búsqueda "tu_i”, con un espacio antes de la “t”, para encontrar formas como tuviesse, tuviese, tubiesse, tuviere, etc.

La búsqueda de secuencias de caracteres puede utilizarse también para encontrar locuciones. Por ejemplo:

• Para buscar sin par, se puede introducir “ sin par ", con espacios antes de sin y después de par, lo que produciría las ocurrencias de sin como inicio de palabra y de par como final.

• Se puede introducir " a ca_allo “, con espacio antes y después de las palabras, para obtener las ocurrencias de a caballo.

• La locución a osadas se puede encontrar simplemente introduciendo las palabras sin espacios o comodines, recordando que para encontrar casos en los que la locución aparece como una sola palabra se tendría que hacer una búsqueda específica de aosadas.

Se debe recordar que las búsquedas de secuencias localizan esas agrupaciones de caracteres en cualquier contexto, de forma que los resultados producen entradas con caracteres situados antes y después de la secuencia buscada. Así, por ejemplo, si un usuario busca osadas para encontrar todas las ocurrencias de aosadas / a osadas, obtendrá también rosadas, glosadas, posadas, etc. Utilizar un espacio para marcar el inicio o final de palabra y buscar secuencias de caracteres lo más largas posibles reducirá el número de resultados obtenidos e incrementará su relevancia. Sin embargo, por volver a los ejemplos anteriores de tener, si un usuario busca " tu_” (con espacio antes de “ tu_” para marcar posición inicial de palabra) esperando encontrar formas del verbo tener, el programa, además de las formas verbales, producirá muchos resultados más. De esta forma, puesto que el programa rastrea esa secuencia particular en cualquier contexto e incluye resultados que presenten letras detrás del comodín, se encontrarán casos de turquesados y tunas, por ejemplo. De nuevo, limitar la busca para incluir más letras de forma secuenciada, como en “ tu_o” y “ tu_ie”, producirá resultados más relevantes.

Sin embargo, una búsqueda amplia como la de “ tu_”, por ejemplo, puede resultar útil incluso si aparecen en la lista tunas y otras palabras similares, pues puede usarse la función de filtrado de resultados y buscar ocurrencias de tuvo" o de cualquier forma que interese (véase la Guía de filtrado y exportación de datos de búsqueda para más información)

El uso del comodín % --mediante el que se sustituye un número indeterminado de caracteres (de cero en adelante), tanto en la palabra como entre palabras-- prpoporciona cierta flexibilidad en las búsquedas por proximidad.

Por ejemplo, "labio%rojo" producirá todas las ocurrencias de labio(s) seguido de rojo(s), con un número de caracteres de entre cero hasta el infinito entre las dos secuencias. Algunos resultados son:

Cita: [1867 Colombia] sus labios rojos, húmedos y graciosamente imperativos [IMR 14]

Cita: [1961 México] se limpió los labios y manchó la servilleta de rojo [FMA 23]

Cita: [c. 1966 Cuba] labios pintados de rojo escarlata [CIT 285]

Cuantos más caracteres consecutivos se proporcionen, más reducidos y afinados serán los resultados que producirá el programa.

El usuario debe tener presente que una búsqueda simple de una palabra o secuencia de caracteres puede producir un número elevado de resultados. Por ejemplo, la búsqueda de la palabra casa da 3.523 resultados; la de una secuencia que termine en "ado", 31.926. Es aconsejable pensar de antemano cuidadosamente qué parámetros de búsqueda se quieren emplear, en particular con palabras comunes y de alta frecuencia de aparición, y limitar la búsqueda antes de iniciarla. Si una búsqueda concreta produce más de 500 resultados, el programa preguntará al usuario si desea continuarla o detenerla. En tales casos, se puede preferir interrumpir la búsqueda y acotarla bien mediante la limitación del número de resultados presentados (véase Guía para la acotación del número de resultados), bien por lugar, obra y/o fecha (siglo o año), para producir unos resultados más fácilmente manejables.

Las búsquedas se presentan en orden cronológico según el siguiente formato:

• Primero, entre corchetes, la fecha y lugar de publicación de la obra que se cita.

• Después, la cita del texto según se da en el corpus de Boyd-Bowman (véase la Guía para la lectura de los resultados de las búsquedas para una descripción de cómo se presentan los resultados).

• Finalmente, entre corchetes, la abreviatura de tres letras del título de la obra, seguida, por lo general, de las páginas de la obra donde se encuentra la cita (para un listado completo de estas abreviaturas, véase el enlace a la Guía de títulos y abreviaturas de las obras en el botón de ayuda o al lado del recuadro de búsqueda en la página principal). Si la obra consta de varios volúmenes, el número del volumen precede, si es relevante, al de las páginas donde se encuentra la cita. Por ejemplo:

[c. 1575 México] sería adúltera y moriría estruxada la cabeça entre dos piedras [BSG 4, 5]

Esta es la información original del Léxico hispanoamericano publicado en CD-ROM.[1] El Copyright de todos los datos pertenece al Hispanic Seminary of Medieval Studies.

________________________________________

[1] Peter Boyd-Bowman’s Léxico hispanoamericano 1493-1993. Eds. Ray Harris-Northall y John J. Nitti. Apoyo tecnológico de Jean E. Lentz. New York: Hispanic Seminary of Medieval Studies, 2003-2007. Versión 2.0. Abril de 2007. Aquellos interesados en la historia del proyecto del Léxico hispanoamericano de Peter Boyd-Bowman pueden encontrar más información en el enlace Historia del proyecto, incluido en el botón “Información sobre el proyecto” de esta página web.